arXiv:2501.15972v1 [cs.AI] 2025 年 1 月 27 日__

arXiv:2501.15972v1 [cs.AI] 2025 年 1 月 27 日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arXiv:2501.15972v1 [cs.AI] 2025 年 1 月 27 日

¥ 1.0

热度

强化学习 (RL) 已证明可成功实现模拟 1 型糖尿病 (T1D) 患者的胰岛素自动给药，但目前无法融入患者的专业知识和偏好。这项工作引入了 PAINT（T1D 胰岛素控制偏好适应），这是一个原始的 RL 框架，用于从患者记录中学习灵活的胰岛素给药政策。PAINT 采用基于草图的方法进行奖励学习，其中过去的数据用连续的奖励信号注释以反映患者的期望结果。标记数据训练奖励模型，为新型安全约束离线 RL 算法的行为提供信息，该算法旨在将行为限制在安全策略内并通过滑动比例实现偏好调整。计算机模拟评估表明，PAINT 通过简单标记期望状态实现了常见的血糖目标，与商业基准相比，将血糖风险降低了 15%。动作标签还可用于整合患者的专业知识，展示在患者指导下预先安排进餐（餐后时间范围内增加 10%）和解决某些设备错误（错误后方差为 -1.6%）的能力。这些结果在现实条件下成立，包括样本有限、标签错误和患者内部差异。这项工作说明了 PAINT 在现实世界的 T1D 管理中的潜力，以及更广泛地说，在安全约束下需要快速和精确偏好学习的任何任务中的潜力。

添加pdf代下载 VIP点击下载文件